通过计算机网络中的数据包路由激励,在线排队系统由队列接收不同速率的数据包组成。反复,他们将数据包发送到服务器,每个每一个只在大多数一个数据包处理一次。在集中式情况下,累积分组的数量保持有界(即,系统是\ Textit {stable}),只要服务率和到达率之间的比率大于1美元。在分散的案例中,当该比率大于2美元时,个人无遗憾的策略确保稳定。然而,Myopically最小化遗憾忽视了由于包裹到进一步的循环而导致的长期影响。另一方面,尽快减少长期成本导致稳定的纳什均衡,只要比率超过$ \ frac {e} {e-1} $。与分散的学习策略的稳定性低于2美元的比例是一个主要的剩余问题。我们首先争辩说,对于高达2美元的比例,学习策略的稳定性需要合作,因为自私最小化政策遗憾,\ Texit {患者}遗憾的遗憾,在这种情况下可能确实仍然不稳定。因此,我们认为合作队列并提出保证系统稳定性的第一次学习分散算法,只要速率比为1美元的比率,因此达到了与集中策略相当的性能。
translated by 谷歌翻译